殘酷的現實是,無效的監控會招來麻煩。監控是您的基礎設施的眼睛和耳朵。無效的監控就像開車帶錯眼鏡處方:看不清楚,因此很難避免當前和未來的危險。
數字化轉型加速了 IT 在組織成功中的作用。最終用戶和客戶需要不間斷的高性能服務。停機、緩慢的應用程序性能、未達到 SLA 要求以及緩慢的部署會導致對 IT 缺乏信心。此外,問題會在一次又一次的會議上產生。IT 需要通過支持文檔提供明確的答案。因此,最佳監控策略和平臺對于避免服務中斷和性能問題至關重要。
復雜的應用需要復雜的監控系統
數字化轉型淘金熱使技術比以前復雜得多。例如,許多應用程序現在是模塊化的。它們可以由具有潛在不同代碼庫的服務組成,這些代碼庫駐留在多個基礎設施中。這些服務可以從一小段容器化代碼到直接在本機操作系統下運行的業務邏輯。此外,應用程序使用網絡 API 來集成服務。
基礎設施可以存在于本地、云中、跨多個云,或者云和本地基礎設施的混合混合。第 2 層和第 3 層網絡設施可以是任何東西,從跨開放互聯網的 SD/WAN、傳統 MPLS 和專用光纖或虛擬數據中心網絡。基礎設施選項正在迅速增長和演變。
遠程工作趨勢增加了復雜性。家庭工作者必須通過消費級互聯網連接訪問資源。此外,工程師必須使用各種 VPN 技術和運營商連接到他們公司的系統。
似乎這還不夠,設備擴散和虛擬化增加了更多的復雜性。物聯網的采用是設備擴散的主要驅動力。路由和交換技術可以是專用硬件、虛擬設備或云網絡。這種增加的復雜性意味著比以往任何時候都更難跟蹤錯誤。
監控系統面臨的挑戰
監控可幫助您滿足服務水平協議 (SLA) 要求和內部性能標準。SLA 可以是內部的或面向客戶的。SLA 是對正常運行時間、故障解決、通信和升級的一組商定要求,并包含對不履行的潛在處罰。除了貴公司創建的 SLA 之外,您還將收到來自供應商的 SLA。這些詳細說明了他們對您的義務。滿足 SLA 要求并擁有支持文檔至關重要。需要克服監控挑戰以滿足 SLA 要求和標準。
第一個挑戰是回答這些問題:
- 你在監控什么?
- 你是怎么監控的?
- 有什么重要的事情你目前沒有監控嗎?
未記錄的設備和配置更改是故障排除的詛咒。在處理未記錄的配置時,讓高層管理人員和客戶要求答案是很可怕的。解析多個日志和警報系統既費時又困難。因此,您的系統需要為配置管理數據庫提供單一數據源。團隊不需要浪費時間搜索多個數據庫。讓我們討論一些其他的監控挑戰。
基線行為
了解您正在監控的內容的一個重要方面是建立基線基礎設施行為。您需要知道異常發生的時間——但首先,您必須知道什么構成異常。事實上,異常閾值設置了潛在問題的預警指標。但是,需要跨網絡和平臺收集和分析信息以獲得最佳結果。
警報音量
另一個挑戰是如何處理大量的警報和消息。應用程序跨平臺和網絡運行,其中每一個都是出現錯誤的另一個機會。任何平臺或網絡中的問題都會影響性能和正常運行時間。此外,您可以擁有多個警報源:APM、NPM、服務器、云提供商和各種其他系統。一個系統中的一個問題可能會引發一連串的錯誤。技術人員越來越不可能過濾和關聯來自如此多不同系統的如此人性化的警報。考慮一下您的監控系統將如何處理大量警報以及如何確定如此多通知的優先級。
勞動密集型程序
監控系統也可能因分散常規和程序而陷入困境。您可能有一些標準的一級故障排除程序,每個人都知道如何處理。這些標準化流程分散了可用于更高級別操作的 IT 資源。
服務水平協議要求
您滿足 SLA 要求的能力取決于供應商的表現,必須對其進行監控和記錄——尤其是在中斷期間。供應商 TAC 中心需要特定信息來提供幫助。準確的文檔對于快速解決事件至關重要。TAC 中心傾向于指責并解決沒有明確定義的問題。不幸的是,如果沒有供應商的支持,某些事件將無法解決。如果您的文檔清晰明了,供應商會更加關注。
人的因素
問題會產生壓力。因此,問題越大,工程師解決問題的壓力就越大。此外,解決問題所需的時間越長,它產生的壓力就越大。壓力會導致壓力,壓力會影響績效。不難看出為什么 IT 中斷和性能問題會導致公司倒閉。對來自多個來源的大量數據進行分類,同時被大量故障單淹沒,即使是最頭腦清醒的軟件開發人員也會感到壓力。最重要的是,客戶、最終用戶和管理層不斷要求更新狀態。如果開發人員給出不明確或不確定的響應,他們可能會驚慌利益相關者,從而產生更多的信息需求。
所有這些壓力造成了這樣一種情況,即 IT 正在查看多個充滿錯誤的亮紅色屏幕,同時弄清楚所有內容在哪里以及如何配置。壓力大的技術人員爭先恐后地運行故障排除程序,向供應商開票,并確定內部資源。如果這些技術人員碰巧犯了錯誤,他們的同事——他們也急于結束這種情況——可能會對他們感到不安。人際關系緊張會導致沖突和其他非生產性行為。此外,在工程師解決了最初的問題之后,同事之間的不信任可能會持續很長時間。
壓力、快速變化和日益復雜的復雜性會滋生人為錯誤。最近的一項研究表明,超過 70% 的中斷是由人為錯誤造成的。但是一個強大的監控系統可以顯著減少您的組織出現與壓力相關的錯誤的機會。